Toggle navigation
首页
期刊介绍
期刊简介
历史沿革
收录情况
获奖情况
引用指标
编委会
期刊在线
文章推荐
过刊浏览
专辑专刊
下载排行
阅读排行
投稿指南
组稿方向
投稿须知
论文模板
常见问题
署名变更申请
单位变更申请
版权转让协议
中图分类号
引言书写要求
参考文献著录格式
插图与表格规范
英文摘要书写要求
收费标准
学术诚信
联系我们
编辑部联系方式
位置示意图
期刊订阅办法
广告合作
English
期刊
出版年
关键词
结果中检索
(((萨初日拉[Author]) AND 1[Journal]) AND year[Order])
AND
OR
NOT
文题
作者
作者单位
关键词
摘要
分类号
DOI
Please wait a minute...
选择:
导出引用
EndNote
Ris
BibTeX
显示/隐藏图片
Select
1.
Spark环境下基于多维布隆过滤器的星型连接算法
周国亮, 萨初日拉, 朱永利
计算机应用 2016, 36 (
2
): 353-357. DOI:
10.11772/j.issn.1001-9081.2016.02.0353
摘要
(
923
)
PDF
(765KB)(
889
)
可视化
收藏
为了适应联机分析处理(OLAP)系统中实时数据高性能分析需求不断提高的需求,提出一种能够适合Spark环境并结合多维Bloom Filter(MDBF)的星型连接算法SMDBFSJ。首先,根据多个维表构建MDBF,利用其占用空间小的特点,广播到所有节点;然后,在本地节点完成事实表过滤操作,事实表不需要在节点间移动数据;最后,过滤后的事实表与维表采用重划分方式进行连接,进而得到最终结果。SMDBFSJ算法避免了事实表数据移动,通过MDBF减小了需要广播的数据量,充分结合了广播连接和重划分连接的优势。实验结果表明了该算法的有效性,在单机和集群环境下,该算法相比重划分连接均获得了3倍左右的性能提升。
参考文献
|
相关文章
|
多维度评价
Select
2.
Spark环境下并行立方体计算方法
萨初日拉, 周国亮, 时磊, 王刘旺, 石鑫, 朱永利
计算机应用 2016, 36 (
2
): 348-352. DOI:
10.11772/j.issn.1001-9081.2016.02.0348
摘要
(
477
)
PDF
(769KB)(
961
)
可视化
收藏
针对传统联机分析处理(OLAP)处理大数据时实时响应能力差的问题,研究基于分布式内存计算框架Spark加速的数据立方体计算方法,设计基于Spark内存集群的自底向上构造(BUC)算法——BUCPark,来提高BUC的并行度和大数据适应能力。在此基础上,为避免内存中迭代的立方体单元膨胀,基于内存重复利用和共享的思想设计改进的BUCPark算法——LBUCPark。实验结果表明:LBUCPark算法性能优于BUC算法和BUCPark算法,能够胜任大数据背景下的快速数据立方体计算任务。
参考文献
|
相关文章
|
多维度评价
Select
3.
Spark环境下的并行模糊C均值聚类算法
王桂兰, 周国亮, 萨初日拉, 朱永利
计算机应用 2016, 36 (
2
): 342-347. DOI:
10.11772/j.issn.1001-9081.2016.02.0342
摘要
(
1114
)
PDF
(901KB)(
1347
)
可视化
收藏
针对聚类算法需要处理数据集的规模越来越大、时效性要求越来越高,对算法的大数据适应能力和性能要求更高的问题,提出一种在Spark分布式内存计算平台下的模糊C均值(FCM)算法Spark-FCM。首先对矩阵通过水平分割实现分布式存储,不同向量存储在不同节点;然后基于FCM算法的计算特点,设计了分布式和缓存敏感的常用矩阵操作,包括乘法、转置和加法等;最后基于矩阵操作和Spark平台特点,设计了Spark-FCM算法,主要数据结构采用分布式矩阵存储,具有节点间数据移动少和每个步骤分布式计算特点。通过在单机和集群环境下测试,算法具有良好的可扩展性,并可以适应大规模数据集,算法性能与数据量成线性关系,集群环境下性能比单机提高2~3倍。
参考文献
|
相关文章
|
多维度评价